Dublettenbereinigung nach dem Record Linkage Algorithmus
نویسندگان
چکیده
Unter Dublettenbereinigung versteht man das Entfernen mehrfach gespeicherter Datensätze, die auf dasselbe Objekt verweisen. Der bekannteste Algorithmus hierzu ist der Record Linkage Algorithmus nach Fellegi und Sunter. Hierbei wird ein Gesamtgewicht auf Grundlage eines Vergleichs einzelner Attribute von zwei Datensätzen errechnet. Neben dem exakten Vergleich von Attributen sind vor allem Algorithmen notwendig, die orthographische oder typographische Fehler berücksichtigen. 1 Grundlagen zur Dublettenbereinigung
منابع مشابه
Linkage Flooding: Ein Algorithmus zur dateninhaltsorientierten Fusion in vernetzten Informationsbeständen
Dieses Papier stellt ein spezielles Record Linkage Verfahren (Linkage Flooding) vor, das für die Suche nach Duplikaten in vernetzten Informationsbeständen optimiert ist. Nach einer kurzen Erläuterung von Anwendungsszenarien des Record Linkage sowie der Vorstellung des Record Linkage Prozesses wird der Linkage Flooding Algorithmus beschrieben und über experimentelle Ergebnisse bei der Duplikater...
متن کاملAktives Load-Balancing in Wireless LAN Hotspots
Drahtlose Netzwerke nach dem Wireless LAN Standard IEEE 802.11 sind heute in immer größeren Bereichen im Einsatz. Trotz der vorhandenen HandoverFähigkeit zeigt sich, dass in derartigen Netzwerken eine zuverlässige Lastverteilung auf erreichbare Basis-Stationen gerade für echtzeitbasierte Anwendungen entscheidende Vorteile hat. Im Rahmen dieses Artikels wird ein Verfahren zum aktiven LoadBalanci...
متن کاملBig Data und der Fluch der Dimensionalität: Die effiziente Suche nach Quasi-Identifikatoren in hochdimensionalen Daten
In smarten Umgebungen werden häufig große Datenmengen durch eine Vielzahl von Sensoren erzeugt. In vielen Fällen werden dabei mehr Informationen generiert und verarbeitet als in Wirklichkeit vom Assistenzsystem benötigt wird. Dadurch lässt sich mehr über den Nutzer erfahren und sein Recht auf informationelle Selbstbestimmung ist verletzt. Bestehende Methoden zur Sicherstellung der Privatheitsan...
متن کاملVollautomatische Segmentierung der Prostata aus 3D-Ultraschallbildern
Kurzfassung. Diese Arbeit beschreibt ein modellbasiertes Verfahren zur Segmentierung der Prostata aus 3D-Ultraschalldaten. Kern der Methode ist ein statistisches Formmodell, das auf Beispieldaten der Prostata trainiert wird. Erster Schritt der Segmentierung ist ein evolutionärer Algorithmus, mit dem das Modell grob im zu segmentierenden Bild positioniert wird. Für die darauf folgende lokale Suc...
متن کاملDer akute Abdominalschmerz in der Notfallambulanz – ein klinischer Algorithmus für den erwachsenen Patienten
Hinter plötzlich auftretendem Abdominalschmerz steht ein umfangreicher Symptomkomplex, zu dem auch eine Vielzahl von chirurgisch zu behandelnden Ursachen gezählt wird. Dieser Symptomkomplex repräsentiert den häufigsten chirurgischen Notfall, den häufigsten Grund für eine chirurgische Konsultation in der Notfallambulanz und den häufigsten Grund für eine nichtunfallbedingte stationäre Aufnahme. N...
متن کامل